Descrição do Problema

Analise realizada para a disciplina de Ciência de dados Preditiva (Periodo: 2018.2) e tem como principal objetivo responder determinadas perguntas sobre o conjunto de dados referentes a gastos de deputados relacionados a atividade parlamentar utilizando o CEAP(cota para o exercício da atividade parlamentar).

Ceap: É uma cota única mensal destinada a custear os gastos dos deputados exclusivamente vinculados ao exercício da atividade parlamentar. Exemplos de despesa desse tipo são: passagens aéreas, telefonia, serviços postais, manutenção de escritórios de apoio à atividade parlamentar, assinatura de publicações, fornecimento de alimentação ao parlamentar, hospedagem, outras despesas com locomoção, contemplando locação ou fretamento de aeronaves, veículos automotores e embarcações, serviços de táxi, pedágio, estacionamento e passagens terrestres.

Descrição dos dados

Os dados foram coletados do site de transparência da Câmara e foram tratados. Também foi considerado um conjunto de dados contendo o limite do CEAP por estado.

date <- read_csv(here::here("date/dadosCEAP.csv"),
                 progress = F,
                 col_types = cols(
                   nomeParlamentar = col_character(),
                   idCadastro = col_integer(),
                   sgUF = col_character(),
                   sgPartido = col_character(),
                   tipoDespesa = col_character(),
                   especDespesa = col_character(),
                   fornecedor = col_character(),
                   CNPJCPF = col_character(),
                   tipoDocumento = col_integer(),
                   dataEmissao = col_character(),
                   valorDocumento = col_double(),
                   valorGlosa = col_integer(),
                   valorLíquido = col_double())) %>%
  mutate(dataEmissao = parse_date_time(dataEmissao,"%Y-%m-%d %H:%M:%S"),
         year_month = paste(lubridate::year(dataEmissao),
                            lubridate::month(dataEmissao),sep = "-"),
         tipoDespesa = toupper(tipoDespesa))
limiteCeap <- read_csv("../date/limiteMensalCEAP.csv")
## Parsed with column specification:
## cols(
##   UF = col_character(),
##   limite_mensal = col_double()
## )
date %>%
  full_join(limiteCeap, by = c("sgUF" = "UF")) -> date

Uma descrição sobre as colunas dos dados se encontra abaixo:

Perguntas a ser respondidas

Existe algum periodo de tempo em que os gastos foram mais recorrentes?

Para responder essa pergunta, primeiro iremos analisar a distribuição dos gastos de acordo com o período do tempo e assim observar como está à distribuição dos gastos do Ceap de acordo com o período de tempo de 2014 a 2017 e assim detectar alguma irregularidade nesta distribuição.

date_total <- date %>%
          mutate(data = as.Date(strptime(dataEmissao, "%Y-%m-%d"))) %>%
          group_by(data) %>%
          summarise(total = sum(valorLíquido)) %>%
          na.omit()

dados.summ.stock <- date_total %>%
  remove_rownames %>% 
  column_to_rownames(var="data")
## Warning: Setting row names on a tibble is deprecated.
dados.summ.stock.xts <- as.xts(dados.summ.stock)
highchart(type = "stock") %>% 
  hc_title(text = "Gastos do Ceap no periodo de 2014 á 2017") %>% 
  hc_subtitle(text = "Valor em real dos gastos ceap") %>% 
  hc_add_series(dados.summ.stock.xts, id = "total", name = "GastosCeap") 

Considerando a distribuição dos dados por ano observamos que o ano de 2017 possui uma variação maior nos gastos do que os anos anteriores, podemos observar também que o ano de 2016 obteve grandes picos em relação aos gastos, caracterizando grandes gastos em determinadas datas, mas quando observamos o ano de 2016 como todos observamos que tais valores como outlines (não recorrentes). Diante disso iremos analisar o porque o período referente ao ano de 2017 obteve tantos gasto e especificamente quais despesas foram mais recorrente em relação a esse período. Para isso iremos plotar um gráfico e vê como foi a distribuição ao longo dos meses relacionados a 2017.

total_2017 <- date %>%
              filter(year(dataEmissao) == "2017") %>%
              group_by(month(dataEmissao)) %>%
              summarise(total = sum(valorLíquido))

mymonths <- c("Janeiro","Fevereiro","Março",
              "Abril","Maio","Junho",
              "Julho","Agosto","Setembro",
              "Outubro","Novembro","Desembro")

total_2017 <- total_2017 %>% mutate(mes = mymonths[total_2017$`month(dataEmissao)`]) 

total_2017 %>% 
  plot_ly(x = ~ `month(dataEmissao)`,
             y = ~total,
            type = "scatter",
            mode = 'lines',
            source = "temporal",
            text = ~paste("Valor gasto em reais:",total,
                          "\nMes:", mes ))  

Como podemos observar a distribuição em relação ao mês de setembro é baste alta entre o período do mês de março até agosto. Observamos o quanto os gastos do Ceap aumentou entre Janeiro, Março e o quanto ele caiu de agosto para setembro, algo bastante curioso dado que a maior parte do tempo os valores se mantiveram entre 18 M e 20 M, mas no mês de setembro especifico o gasto caiu para algo entorno de 7 M uma queda de 11 M de reais. Podemos associar tal diferença de valor depôs da denúncia que o programa de tv Fantástico fez utilizando a inteligência artificial operação serenata de amor que tem como objetivo fiscalizar esses gastos do Ceap e produzir denuncias sobre gastos que convem desnecessário. Essa reportagem pode ser assistida aqui .

No, mas iremos investigar se realmente 2017 foi o período de maior gasto, sendo assim iremos selecionar os quatro anos presentes nos conjuntos de dados e observar qual teve um maior gasto no Ceap para concluímos.

anos <- date %>%
        group_by(year(dataEmissao)) %>%
        summarise(total = sum(valorLíquido)) %>%
        na.omit()

anos %>%
  ggplot(aes(x =  reorder(`year(dataEmissao)`,total), y = total, ymax = total, ymin = 0)) + 
   geom_point(size = 2) + 
    geom_linerange(size = .3) +
   coord_flip()

Como podemos observar o ano de 2016 na sua totalidade teve mais gastos do que os demais, porém, vale destacar que no conjunto de dados só os anos de 2015 e 2016 que esta o número referente a todos os meses do ano. O ano de 2017 que visualmente se mostrava com o que mais gastava na sua totalidade não foi tão grande quanto os demais mesmo considerando que 2017 está com ausência do período de outubro a dezembro, mas como vimos a sequência de acordo com o ano em 2017 estava caindo. Por fim, outro fato que pode ter levado a 2016 ser um ano de muito gasto foram as eleições municipais que pode ter alguma diferença para isso iremos investigar mais abaixo.

Durante a disputa eleitoral municipal de 2016 os gastos do Ceap foram maiores? Qual tipo de despesa foram mais recorrentes?

Para responder essa pergunta iremos separar um conjunto de dados referente as eleições de 2016 considerando a data de início das propagandas e o fim que seria um dia depôs do segundo turno das eleições. Utilizamos com referencia esse site .

eleicoes_2016 <- date %>% filter(year_month %in% c("2016-8","2016-9","2016-10"))

Depôs disso, iremos analisar como foi a distribuição de gastos durante esses meses.

eleicoes_2016 %>%
  group_by(year_month) %>%
  summarise(total = sum(valorLíquido)) %>%
  ggplot(aes(x =  reorder(year_month,total), y = total, ymax = total, ymin = 0)) + 
   geom_point(size = 2) + 
    geom_linerange(size = .3) +
   coord_flip() +
  labs(x = "Mês", y = "Total gasto no mês")

Como podemos observar os meses que mais tiveram gasto refere-se ao primeiro e segundo mês de campanha, podemos associar o primeiro mês ao período de registo de candidato, comissões partidárias entre outros, já o último mês refere-se a reta final das campanhas eleitorais considerando que esse parlamentares podem está dando apoio aos candidatos. Mas não podemos afirmar que as eleições foram a causa desse aumento, para,melorar nossa análise iremos observar quais tipos de despesas foram mais recorrentes nesse período.

eleicoes_2016 %>%
  group_by(tipoDespesa) %>%
  summarise(total = n()) %>%
  ggplot(aes(x =  reorder(tipoDespesa,total), y = total, ymax = total, ymin = 0)) + 
   geom_point(size = 2) + 
    geom_linerange(size = .3) +
   coord_flip() +
  labs(x = "Tipo de pesa", y = "Total de recorrência")

Como podemos observar a despesas do tipo de “Emissão bilhete aéreo” é disparada a despesas que mais se repete, o que era de se esperar considerando que os parlamentares vão para os seus estados ao apoio dos candidatos, mas não podemos utilizar isso como justificativa porque como vimos anteriormente nessa analise em todo o conjunto de dados a despesa de “Emissão bilhete aéreo” é a que mais está presente no conjunto. Para vê se se existe uma diferença relacionada a esses meses no ano de 2016, observamos como foi a distribuição de gastos total do Ceap em todo o ano de 2016.

total_2016 <- date %>%
              filter(year(dataEmissao) == "2016") %>%
              group_by(month(dataEmissao)) %>%
              summarise(total = sum(valorLíquido))

mymonths <- c("Janeiro","Fevereiro","Março",
              "Abril","Maio","Junho",
              "Julho","Agosto","Setembro",
              "Outubro","Novembro","Desembro")

total_2016 <- total_2016 %>% mutate(mes = mymonths[total_2016$`month(dataEmissao)`]) 

total_2016 %>% 
  plot_ly(x = ~ `month(dataEmissao)`,
             y = ~total,
            type = "scatter",
            mode = 'lines',
            source = "temporal",
            text = ~paste("Valor gasto em reais:",total,
                          "\nMes:", mes ))  

Podemos observar que os gastos referentes ao período da eleição permaneceu os mesmo em relação à distribuição de gastos de acordo com os meses de 2016, apenas em destaque ao mês de dezembro que foi o mês onde mais se tiveram gastos no ano de 2016. Como falamos anteriormente o ano de 2016 foi o que mais teve gastos no período de 2014 a 2017. Como vimos, as eleições de 2016 não tiveram impacto nos gastos do ano de 2016, apenas o mês de dezembro que se destacou com isso iremos analisar o que levou aos gastos excessivos nesse mês.

dezembro_2016 <- date %>% filter(year_month == "2016-12")

Após selecionarmos o conjunto referente ao mês de dezembro de 2016, iremos observar quais despesas mais se repetira nesse mês.

dezembro_2016 %>%
  group_by(tipoDespesa) %>%
  summarise(total = n()) %>%
  ggplot(aes(x =  reorder(tipoDespesa,total), y = total, ymax = total, ymin = 0)) + 
   geom_point(size = 2) + 
    geom_linerange(size = .3) +
   coord_flip() +
  labs(x = "Tipo de pesa", y = "Total de recorrência")

Como observamos as despesas mais recorrentes se mantêm as mesmas referentes a todo o ano de 2016. Agora iremos analisar quais candidatos mais gastaram nesse mês.

pai_pai_noel <- dezembro_2016 %>%
                group_by(nomeParlamentar) %>% 
                summarise(total = sum(valorLíquido)) %>%
                arrange(-total) %>%
                slice(1:5) 

pai_pai_noel %>%
  ggplot(aes(x =  reorder(nomeParlamentar,total), y = total, ymax = total, ymin = 0)) + 
   geom_point(size = 2) + 
    geom_linerange(size = .3) +
   coord_flip() +
  labs(x = "Parlamentar", y = "Total de despesas em R$")

Como podemos vê, selecionados os 5 parlamentares que mais gastaram no mês de dezembro e observamos que todo ultrapassaram a quantia de R$ 160.000,00 cada um, tal quantia é muito maior do que o limite estabelecido. Por fim, observamos ao longo dos anos de 2014 a 2017 como foi os gastos do Ceap pelos parlamentares e vimos que as eleições não foram um fator que contribui para altos gastos no ano de 2016 e de acordo com essa distribuição viu que o mês de dezembro como algo fora do comum e listamos alguns parlamentares que de certa maneira com os seus gastos abusivos contribuíram para isso.